Ce projet vise à explorer et analyser les données du service de vélos en libre-service de la Baie de San Francisco, avec l’objectif de comprendre les facteurs influençant l’utilisation des vélos et d’identifier les tendances d’utilisation. Les données, provenant de Kaggle, incluent des informations détaillées sur les stations de vélo, la météo, le statut de la station à un moment donné, et les trajets effectués.
Ces données correspondent plus précisément aux vélos de Bay Area Bike Share qui était, jusqu’en 2015, le principal loueur de vélos en libre-service 24/7 dans la baie de San Francisco. Cette entreprise possédait 700 vélos et 70 stations dans la baie. Le jeu de données disponible sur Kaggle nous donne les dernières données de ce service, entre août 2013 et août 2015, qui étaient mises à disposition sur le site de Bay Area Bike Share.
Les données proviennent de Kaggle,
et sont constituées de quatre fichiers CSV distincts :
Station, Weather, Status, et
Trip.
Nous avons choisi ces datasets pour les informations diversifiées qu’ils proposent, décrites ci-dessous
Chaque ensemble de données est formaté en CSV, ce qui facilite l’importation et l’analyse dans divers outils d’analyse de données.
Les données sont divisées en quatre catégories principales correspondant aux aspects clés du service de vélos en libre-service, permettant une analyse multidimensionnelle de l’utilisation des vélos en fonction de la météo, de la disponibilité des vélos, et des préférences de trajet des utilisateurs.
| Fichier | Caractéristique | Type de données (Quantitatif / Qualitatif) | Description |
|---|---|---|---|
| Station | id | discrète | Identifiant unique de la station |
| name | nominale | Nom de la station de vélo | |
| latitude | continue | Coordonnée géographique en latitude de la station | |
| longitude | continue | Coordonnée géographique en longitude de la station | |
| dock_count | discrète | Nombre de places de vélos disponibles dans la station | |
| city | nominale | Nom de la ville dans laquelle la station est instalée | |
| installation_date | discrète | Date d’installation de la station | |
| Status | station_id | discrète | Identifiant unique de la station |
| bikes_available | discrète | Nombre de vélos disponibles dans la station | |
| docks_available | discrète | Nombre de places vides disponibles dans la station | |
| time | discrète | Heure actuelle | |
| Trip | id | discrète | Identifiant unique du trajet |
| duration | discrète | Durée du trajet | |
| start_date | discrète | Date et heure de début du trajet | |
| start_station_name | nominale | Nom de la station de départ | |
| start_station_id | discrète | Identifiant unique de la station de départ | |
| end_date | discrète | Date et heure de fin de trajet | |
| end_station_name | nominale | Nom de la station de fin | |
| end_station_id | discrète | Identifiant unique de la station d’arrivée | |
| bike_id | discrète | Identifiant unique du vélo | |
| subscription_type | nominal | Type d’abonnement de l’utilisateur | |
| zip_code | discrète | Code postal | |
| Weather | Date | discrète | Date |
| max_temperature_f | continue | Température maximale en degrés Fahrenheit | |
| mean_temperature_f | continue | Température moyenne en degrés Fahrenheit | |
| min_temperature_f | continue | Température minimale en degrés Fahrenheit | |
| max_dew_point_f | continue | Point de rosée maximal en degrés Fahrenheit | |
| mean_dew_point_f | continue | Point de rosée moyen en degrés Fahrenheit | |
| min_dew_point_f | continue | Point de rosée minimal en degrés Fahrenheit | |
| max_humidity | continue | Humidité maximale en % | |
| mean_humidity | continue | Humidité moyenne en % | |
| min_humidity | continue | Humidité minimale % | |
| max_sea_level_pressure_inches | continue | Pression atmosphérique maximale au niveau de la mer en pouces de mercure | |
| mean_sea_level_pressure_inches | continue | Pression atmosphérique moyenne au niveau de la mer en pouces de mercure | |
| min_sea_level_pressure_inches | continue | Pression atmosphérique minimale au niveau de la mer en pouces de mercure | |
| max_visibility_miles | continue | Visibilité maximale en miles | |
| mean_visibility_miles | continue | Visibilité moyenne en miles | |
| min_visibility_miles | continue | Visibilité minimale en miles | |
| max_wind_Speed_mph | continue | Vitesse maximale du vent en miles par heure | |
| mean_wind_speed_mph | continue | Vitesse moyenne du vent en miles par heure | |
| max_gust_speed_mph | continue | Vitesse maximale des rafales en miles par heure | |
| precipitation_inches | continue | Volume des précipitations en pouces | |
| cloud_cover | continue | Couverture nuageuse en oktas | |
| events | nominale | Commentaires sur la météo du jour (Brouillard, pluie…) | |
| wind_dir_degrees | continue | Direction du vent en degrés | |
| zip_code | dicrète | Code postal |
Nous aborderons plusieurs questions clés à travers notre analyse, qui se divisent en deux parties pour répondre à notre problématique :
Partie 1 - Quels sont les facteurs qui ont un impact sur l’utilisation des vélos ?:
Partie 2 - Quelles sont les tendances d’utilisation des vélos ?
####Analyse
station.csv On observe une forte corrélation négative entre la latitude et la longitude et également une corrélation négative entre la longitude et id. Il n’y a rien de vraiment notable sur cett heatmap, on peut s’attendre à ce qu’il y a une corrélation entre latitude et longitude. Par contre, on pourrait essayer de comprendre pourquoi une corrélation existe entre l’id de la station et la longitude.
trip.csv Il n’existe visiblement pas de corrélations notables entre les variables de ce dataset. On observe une petite corrélation positive entre le code zip et le type d’abonnement (zip_code / subscription_type) et la station de début et la station de fin (start_station_id et end_station_id). Une forte corrélation positive existe entre la date de début d’un trajet et sa date de fin (start_date/end_date).
status.csv On observe une corrélation négative entre le nombre de vélos disponible et le nombre de dock disponible (bikes_available/docks_available), ce résultat était attendu car plus il y a de vélos disponible à la station, moins les docks sont disponibles.
weather.csv De façon plutôt logique, on observe sur la heatmap des corrélations entre les means, max et min de chaque conditions météorologiques.
Etant donné que ces heatmaps ne nous donne pas plus d’informations que cela pour chaque dataset, il s’agit de croiser les datasets ensemble pour observer s’il existe des corrélations entre certaines variables, auxquels nous n’aurions pas pensé lors de la rédaction de notre plan d’analyse. Pour la lisibilité des heatmaps, les dataset vont être fusionnés deux à deux. Nous avons donc essayer de faire les choix de fusion les plus pertinents :
####Analyse
Entre weather et trip / entre weather et status On retrouve des corrélations entre les variables en lien avec la météo. Ce qui est notable est que ces corrélations sont moins fortes que pour la heatmap entre weather et station.
Entre weather et station Ici on observe qu’il y a des corrélations forte pour la latitude et longitdue avec certaines condition météorologique, on pourrait évventuellement faire une carte des conditions météorologiques pour comprendre comment cette corrélation prend forme. On pourrait observer cela sur chacune des années du dataset pour voir s’il y a une évolution du temps à SF et si cela à un impact sur l’utilisation des vélos aux stations.
Entre trip et station On trouve ici plusieurs corrélations intéressantes : - entre les stations de début et de fin et la latitute et longitude (start_station_id/latitude ET longitude, end_station/latitude ET longitude), nous pouvons peut-être voir, grâce à la question 3 de notre plan d’analyse, la relation entre la position de la station de départ et sa position et pareillement pour la station d’arrivée.
Entre status et station On ne trouve pas ici de liens particulier intéressante pour notre analyse, la corrélation entre dock_count et bikes_available / docks_available semble naturel.
Nous avons pu observer des variations importantes et en apparence régulières relatives à l’utilisation des vélos lors de notre étude de l’évolution du nombre de trajets et de la durée moyenne quotidienne. Nous imaginons que ces disparités sont dûes à un usage différents selon les différents jours de la semaine.
Selon les tendances d’utilisation des vélos, on peut émettre différentes hypothèses. Si les utilisateurs favorisent les vélos pour des trajets quotidiens (domicile - lieu de travail par exemple), on peut s’attendre à observer davantage de trajets en semaine, pour des trajets plus courts. Si au contraire ils sont utilisés pour le loisir (balade/ déplacements pour le loisir), on peut s’attendre à noter davantage de trajets effectués en fin de semaine, pour des durées plus longues.
Pour étudier les tendances d’utilisation des vélos en fonction des jours de la semaine, nous utilisons un barchart pour réprésenter succéssivement le nombre de trajets et la durée moyenne des trajets. Si on observe une corrélation entre les données, il serait intéressant de les réunir sur un même graphique.
Nombre de trajets et durée moyenne des trajets en fonction des jours de la semaine
On observe facilement une corrélation entre le nombre moyen et la durée moyenne des trajets enregistrés chaque jour. En effet, plus de trajets sont effectués en semaine pour une durée d’une dizaine de minutes, ces derniers peuvent correspondre aux déplacements quotidiens des habitants de San Francisco, pour se rendre au travail/ en courses. Les trajets enregistrés les samedis et dimanches sont nettement moins nombreux et leur durée moyenne est supérieure à celle des trajets en semaine; on suppose qu’ils correspondent à des trajets de loisir, pour des déplacements occasionnels, des promenades. On notera que la variation entre la durée moyenne des trajets en semaine et le week-end n’est que de quelques minutes (5-7 minutes); une interprétation reste intéressante compte tenu de la constance des résultats obtenus de lundi à vendredi. A l’issue de cette visualisation nous avons souhaité étudier la répartition des données à travers des boxplot afin d’approfondir notre étude.
Répartition du nombre de trajets et de la durée moyenne des trajets en fonction des jours de la semaine
On remarque que les valeurs du nombre de trajets enregistrés chaque jour sont peu étendues, quelques outlier existent. La moitié des valeurs enregistrées se situe dans un intervalle réduit, l’étendue du nombre de trajets enregistrés le week-end est faible, les valeurs sont nettement moins importantes que les nombres de trajets enregistrés en semaine.
Les répartitions des durées moyennes enregistrées en semaine sont identiques entre elles. La répartition des durées moyennes enregistrées samedi et dimanche sont casiment identiques. Le graphique comporte un nombre important d’outliers, pour mieux visualiser la répartition des données interessantes nous avons limité l’axe des ordonnées à 30 minutes excluant environ 3% des valeurs.
Nous avons étudié les tendances d’utilisation des vélos en comparant le nombre de trajets moyen et la durée moyenne enregistrés par jour, puis la répartition de ces deux variables. Nous observons nettement que les vélos sont davantage utilisés en semaine, pour des trajets plus courts, on suppose qu’il s’agit de trajets quotidiens. Moins de trajets sont effectués les samedis et dimanches, mais les durées moyennes sont plus élevées, pouvant correspondre à des trajes occasionnel, de loisir.
Etudier la répartition de ces deux variables (nombre de trajets/jour et durée moyenne/jour) nous permet de confirmer ces différence d’utilisation. De manière générale on note une répartition presque identique des données pour les jours de lundi à vendredi, ainsi qu’entre samedi et dimanche. On note aussi des données peu étendues et une quantité limitée d’outlier compte tenu de la quantité de données traitées. La répartition des moyennes de durées des trajets quotidienne présente davantage d’outliers.
En étudians l’évolution de l’utilisation du service sur deux ans nous avons soulevé des tendances d’utilisation en fonction des différents jours de la semaine. De plus, nous avons noté une variation du nombre de trajets enregistrés au cours de l’année. Il serait intéressant de poursuivre une étude similaire à celle-ci en fonction des différents mois de l’année, en fonction des saisons. Pour approfondir cette étude, nous nous pencherons également sur les tendances d’utilisation des vélos libre-service de San Francisco en fonctions des conditions météorologiques enregistrées (température, vent, précipitation…).
Nous avons utilisé l’outil Tableau pour représenter les graphiques de cette question. L’outil nous a permis d’extraire les données facilement, d’obtenir des visualisations rapidement et de manipuler les diagrammes afin d’en tirer des informations complémentaires à notre étude. En effet, voicile tableau de bord obtenu regroupant l’évolution du nombre de trajets quotidien sur la période étudiée, l’évolution du nombre de trajets hebdomadaires, le nombre de trajets moyen par jour de la semaine (bar chart) et la répartition du nombre de trajets par jour de la semaine. Nous avons ajouté des filtres visibles sur la droite du tableau de bord permettant de selectionner les jour de la semaine concernés et/ou de définir une plage de date. Ces filtres n’agissent que sur les line chart.
Sur cette deuxième capture d’écran nous nous sommes servis du filtre pour ne visualiser que l’évolution du nombre de trajets effectués du lundi au vendredi. On remarque l’apparition d’une tendance sur la courbe modélisant l’évolution du nombre de trajets quotidiens malgré la persistance d’outliers.
Sur cette troisième capture d’écran on a, à l’inverse, uniquement conservé les données relatives au nombre de trajets enregistrés les samedi et les dimanches. De même que précédemment, on observe une diminition des variations sur le premier graphique. En comparant avec la capture d’écran illustrant les données enregistrées en semaine, on voit nettement la différence d’évolution du nombre de trajets enregistrés du lundi au vendredi par rapport au week end.s
Ce graphique analyse l’évolution du rapport entre abonnés (subscribers) et clients (customers). Les abonnés payent un abonnement mensuel pour avoir accès au vélos en illimités, alors que les customers payent leurs trajets à l’unité. Sur les trajets courts, la proportion d’abonnés est très forte (environ 90%), mais elle dégringole au fur et à mesure que les trajets rallongent. On a un équilibre entre abonnés et clients sur les trajets entre 20 et 24 minutes. Sur les trajets longs, la tendance est inversée avec un net avantage aux clients (environ 90 % de clients sur les trajets supérieurs à 40 minutes). C’est donc l’inverse de ce que nous avions prédit (plus de subscriber pour les longs trajets). On peut l’expliquer par le fait que les abonnées n’hésitent pas à prendre le vélo même sur des courts trajets, vu qu’il ne payent pas au trajet, alors que les clients vont préférer marcher ou un autre moyen de transport pour ne pas payer. De plus, les abonnées utilisent souvent le vélo sinon ils ne s’abonneraient pas car cela ne serait pas rentable, et les trajets les plus courants dans la vie quotidienne sont plutôt courts. A contrario, sur les longs trajets qui sont sûrement plutôt des ballades que des déplacements, les clients, donc usagers ponctuels, sont plus nombreux. Ils utilisent rarement les vélos, mais pour des occasions spécifiques.
Dans le jeu de donnée status.csv, nous avons les données des stations pour 3 années. Pour chaque station, il y a des enregistrements effectués toutes les minutes pour connaître l’état de la station (nombre de vélos stationnés et le nombre de docks disponibles).
On observe que les stations sont, au global, mal dimensionnées. Seules les stations 5 et 83 ont toujours été en moyenne bien dimensionnées. On peut se demander si, au cours des années les dimensions ont toujours été les mêmes et si le taux d’occupation aurait évoluer au cours du temps. La question qui découle de cette observation est :
Sur ces trois graphiques, on observe majoritairement des stations qui sont sous-dimensionnées. On peut voir une évolution entre chaque année :
On peut supposer que Bay Area Bike Share a essayé d’ajuster ses services au fil des années. On peut conclure que les stations ne sont majoritairement pas dimensionnées correctement.
NB : le taux d’occupation moyen a été limité à 150% afin de pouvoir mieux comparer visuellement les données présentées pour chaque année. En 2013, le taux d’occupation varie entre 0% et 200% En 2014, le taux d’occupation varie entre 0% et 150% En 2015, le taux d’occupation varie entre 0% et 200% On peut noter qu’au global, entre 2013 et 2015, le taux d’occupation varie entre 0% et 150%.
La méthode de calcul pour le taux d’occupation moyen est à améliorer. Le calcul est effectué sur toutes les entrées d’une année, mais vu le volume de données, peut-être que l’on pourrait échantillonner pour avoir une meilleure idée du dimensionnement. A voir si une autre méthode de calcul serait plus adaptée aussi.
On remarque que pour certaines stations, le temps moyen des trajets avec cette station comme point d’arrivée est supérieur au trajets avec cette même station comme point de départ et inversement. (Cercles rouge plus gros le cercle bleu)
Voici quelques pistes qui pourraient permettre d’expliquer ces différences :
Si une station est située en bas d’une colline, les trajets en direction de cette station (descente) seront plus rapides, tandis que les trajets partant de cette station (montée) seront plus lents. Cela pourrait expliquer pourquoi les temps moyens de trajets vers certaines stations sont plus courts ou plus longs que ceux partant de ces mêmes stations.
Les utilisateurs peuvent avoir des comportements différents en fonction du type de trajet. Par exemple, les trajets vers une station proche d’une zone de loisirs peuvent être plus longs car les utilisateurs prennent leur temps, tandis que les trajets partant de cette station peuvent être plus rapides car les utilisateurs se dirigent vers des destinations spécifiques.
Certaines stations peuvent être situées dans des zones où les infrastructures présentes (ex: pistes cyclables) peuvent influer sur la durée moyenne des trajets entrants et sortants.
On remarque que la différence de durée moyenne des trajets entre l’arrivée et le départ ne semble pas être directement lié à la topologie de la ville de San Francisco. En effet, les stations dans les zones vert-claires, donc avec plus de dénivelé, ne ne semblent pas subir une augmentation significative de la durée des trajets entrants par rapport aux trajets sortants.
On remarque que la différence de durée moyenne des trajets entre l’arrivée et le départ ne semble pas être directement lié à la présence ou non de point d’intêrets à San Francisco.
On remarque que la différence de durée moyenne des trajets entre l’arrivée et le départ ne semble pas être directement lié à la présence ou non d’infrastructure cyclable. On revanche il est interessant d’observer que la durée moyenne des trajets diminue (cercles rouges et bleus plus petits) en fonction de leur présence. Cela invite à supposer que les infrastructures cyclables facilitent et fluidifient les trajets à vélo.
Ces premières visualisations sur la durée d’utilisation des vélos permettent de nous rendre compte que la majorité des trajets durent moins de 10 minutes, et plus précisément entre 5 minutes et 10 minutes.
Tendance générale : On observe une augmentation de la durée des trajets avec la montée de la température, jusqu’à 20°C, suggérant que des conditions climatiques agréables encouragent des trajets plus longs.
Impact de la chaleur élevée : La durée des trajets diminue légèrement dans la tranche 25 à 30°C, peut-être à cause du confort réduit dû à la chaleur.
Données manquantes : La catégorie NA indique des données de température manquantes ou non définies, il serait bien de gérer correctement son affichage.
On remarque que la durée moyenne des trajets est plus ou moins équivalente au travers des différentes saisons, avec un écart de 100 secondes (1m40s) maximum entre deux saisons. On remarque tout de même qu’en hiver la durée moyenne est nettement en deça des autres saisons, probablement à cause des températures plus basses à cette saison. Il serait interessant de mettre en parallèle ces durées de trajets avec le nombre de trajet effectués pour chaque saison.
Changer les secondes en minutes pour une meilleure compréhension.
Été : C’est la saison la plus active, avec le nombre de trajets le plus élevé, ce qui est souvent le cas dans de nombreuses régions en raison de conditions météorologiques plus clémentes et d’une augmentation des activités de plein air durant cette période.
Printemps : Juste derrière l’été, le printemps montre également un nombre élevé de trajets. Ce pic pourrait être attribué à l’amélioration du temps et à la volonté des gens de sortir après l’hiver.
Automne : Bien que légèrement moins élevé que l’été et le printemps, l’automne affiche encore un nombre significatif de trajets, possiblement aidé par des températures agréables.
Hiver : Comme nous pouvions le prévoir, l’hiver a le nombre le plus bas de trajets. Le froid, la pluie, ou la neige dans certaines régions peuvent décourager l’utilisation de vélos pendant cette saison.
Faibles Précipitations (0-0.2 inches) : On observe la durée la plus courte pour les trajets, ce qui est attendu car les conditions sont relativement sèches, facilitant des trajets plus courts et plus rapides.
Augmentation des Précipitations (0.2-1.0 inches) : La durée des trajets diminue progressivement avec l’augmentation des précipitations. Cela suggère que des pluies légères à modérées pourraient décourager l’usage du vélo pour de longs trajets.
Pic de Précipitations (1.0-1.2 inches) : Il y a une augmentation marquée de la durée moyenne des trajets pour cette tranche de précipitations. Ce pic pourrait être lié à des conditions spécifiques qui ralentissent les déplacements, comme des pluies plus lourdes nécessitant une prudence accrue, ou peut-être un événement particulier qui a eu lieu dans des conditions de forte pluie.
Très Fortes Précipitations (1.2 inches et plus) : Après le pic, la durée des trajets commence à diminuer à nouveau, mais reste plus élevée comparée aux conditions de faibles précipitations. Cela pourrait indiquer que, bien que moins de personnes choisissent de voyager en vélo lorsqu’il pleut fort, ceux qui le font peuvent prendre des trajets essentiels qui prennent plus de temps à compléter.
Il serait donc interessant, une fois de plus de mettre ces données en relations avec le nombre de trajets effectués en fonction des précipitations.
Il serait bien de changer l’unité des précipations en mm afin de mieux appréhender les différentes valeurs.
Faibles Précipitations (0-0.2 inches) : Il y a un nombre très élevé de trajets réalisés sous de faibles précipitations. Cela montre que des conditions météorologiques légèrement humides n’entravent pas significativement l’utilisation du vélo.
Augmentation des Précipitations : À mesure que les précipitations augmentent, le nombre de trajets diminue drastiquement. Cela suggère que des conditions de pluie modérée à forte dissuadent les utilisateurs de choisir le vélo comme mode de transport.
Très Fortes Précipitations (>1.0 inches) : À des niveaux de précipitations plus élevés, le nombre de trajets chute presque à zéro, indiquant une forte rejet pour le cyclisme sous de telles conditions.
Couplée à la visualisation précédente, celle-ci nous montre que même si la durée moyenne des trajets varie sous la pluie, elle ne varie clairement pas autant que le nombre de trajets effectués dans ces conditions.
Changer les unités de l’axe y permettrait peut-être d’améiorer la compréhension. Il serait bien de changer l’unité des précipations en mm afin de mieux appréhender les différentes valeurs et de retirer la notation scientifique.
On observe une variation de la durée moyenne des trajets selon la température moyenne quotidienne. On peut supposer que les températures plus élevées favorisent l’usage des vélos pour des trajets longs, tandis qu’ils sont utilisés davantage pour des trajets courts lorsque la température est froide. Une particularité entre 5 et 10°C peut s’expliquer par le froid qui ralentirait la progression des usagers.
Nous observons une faible variation de la durée moyenne des trajets selon l’humidité en général. Il est cependant à noter que la durée moyenne des trajets augmente considérablement lorsque l’humidité est maximale, autrement dit quand il pleut, cela peut s’expliquer par des usagers plus prudents, moins rapides, lorsqu’il y a de la pluie.
De manière générale, on suppose qu’une bonne visibilité, synonyme de beau temps, encourage des trajets longs car plus agréables. Une mauvaise visibilité quand à elle pourrait ralentir les usagers.
On observe que la présence de vent n’a pas d’impact direct sur la durée moyenne des trajets, on note cependant une relation entre un vent important et des trajets plus courts en général. Cela nésseciterai des informations complémentaires pour établir clairement un lien.
On note que les temps sec favorisent les trajets longs, plus agréables. On remarque également que la durée moyenne des trajets lors de fortes précipitations augmente, on peut expliquer cela par des utilisateurs plus prudents, moins rapides.
D’ordre général, on remarque que la durée moyenne des trajet est plus importante lorsque la couverture nuageuse est la plus faible. On peut expliquer cela par un usage plus important des vélos, pour des trajets plus longs. Il s’agit de corréler ces données avec le nombre de trajets effectués en fonction des conditions météorologiques.
Cette interrogation avait pour objectif de relier les données météorologiques avec les données relatives aux trajets enregistrés. Après avoir étudié le nombre et la durée des trajets en fonction de conditions météorologiques, nous souhaitions faire apparaître des tendances d’utilisations relatives aux stations empruntées (départ/ arrivée) et aux distances parcourues. Nous espérions par exemple identifier des tendances de déplacement vers le littoral ou les lieux touristiques lorsque le temps est favorable, ou des déplacements vers des lieux en intérieur (centre commerciaux, cinémas) lorsque le temps est défavorable. Plusieurs raisons nous ont poussés à écarter cette question :
D’ordre général, on remarque que la durée moyenne des trajet est plus importante lorsque la couverture nuageuse est la plus faible. On peut expliquer cela par un usage plus important des vélos, pour des trajets plus longs. Il s’agit de corréler ces données avec le nombre de trajets effectués en fonction des conditions météorologiques. Cet Arc Diagram nous permet de voir pour chaque station quelle est la station d’arrivée la plus représentée parmi les trajets partant de celle-ci (arcs au dessus), et quelle est la station dont elle est la plus grosse source d’arrivée (arcs au dessous). Par exemple, la station d’arrivée la plus courante parmi les trajets partant de la station 6 est la station 46, et la station de provenance la plus représentée dans les trajets arrivant à la station 4 est la station 70.
On voit sur la carte que les stations les plus utilisées sont situées dans la ville de San Francisco, notamment sur Market Street, Townsend Street, l’embarcadère. On observe que les stations sont vraiment réparties sur les grands axes routiers de la ville mais ne couvrent pas du tout toute l’agglomération. On ne peut par exemple pas aller dans le district de Richmond, de Bayview, ou de Sunset en vélo. Des stations sont aussi situées à San Jose, Mountain View, Palo Alto et Redwood City, mais elles possèdent une affluence plus faible. Les vélos en libre service sont donc plutôt voués à être utilisés pour couvrir des courtes distances, dans les centres villes de ces agglomérations.
## # A tibble: 24 × 2
## hour count
## <int> <int>
## 1 0 2132
## 2 1 1142
## 3 2 649
## 4 3 309
## 5 4 1004
## 6 5 3417
## 7 6 14271
## 8 7 43846
## 9 8 85615
## 10 9 62467
## # ℹ 14 more rows
## # A tibble: 24 × 2
## hour count
## <int> <int>
## 1 0 2132
## 2 1 1142
## 3 2 649
## 4 3 309
## 5 4 1004
## 6 5 3417
## 7 6 14271
## 8 7 43846
## 9 8 85615
## 10 9 62467
## # ℹ 14 more rows
Les durées moyennes des trajets à vélo sont particulièrement longues en début de matinée (2h-4h) et autour de midi (12h-14h), plus courtes aux heures de pointe (7h-9h et 16h-18h), et modérément stables en milieu de journée (10h-15h) et en soirée (18h-21h).
Ce graphique montre que les durées moyennes des trajets à vélo varient significativement selon l’heure de la journée. Les trajets les plus courts se produisent aux heures de pointe, ce qui est logique car les utilisateurs cherchent à se déplacer rapidement pour le travail ou l’école. Les durées plus longues observées tôt le matin et autour de midi pourraient indiquer des usages plus récréatifs ou des trajets moins pressés.
On remarque que l’utilisation des vélos atteint des pics notables aux heures de pointe du matin (7h-9h) et du soir (16h-18h), avec un plateau plus stable mais plus faible en milieu de journée (10h-15h).
Les deux périodes de pointe distinctes correspondant aux heures de pointe typiques du matin et du soir, suggèrent que les vélos sont principalement utilisés pour les trajets domicile-travail ou domicile-école. Cela met en évidence l’importance des vélos comme moyen de transport pour les déplacements quotidiens dans la baie de San Francisco.
Le plateau en milieu de journée indique une utilisation modérée des vélos, possiblement pour des courses, des déjeuners ou des déplacements personnels. Les faibles niveaux d’utilisation tôt le matin et tard le soir sont cohérents avec les périodes de repos et moins d’activités.
Cette carte nous permet de voir qu’il existe des différences importantes entre le nombre de départs et d’arrivées pour certaines stations. On a par exemple à San Francisco deux stations ayant environ 25 % plus de départs que d’arrivées. On a également à San Jose une station très excédentaire en départs (18%). En utilisant également la carte précédente, on se rend compte que les grosses stations ont un rapport départ/arrivées assez équulibrées, et c’est en réalités des stations moins fréquentées qui possèdent un fort déséquilibre.
## # A tibble: 1 × 6
## correlation_temp correlation_humidity correlation_wind_speed
## <dbl> <dbl> <dbl>
## 1 -0.0123 -0.00728 -0.00379
## # ℹ 3 more variables: correlation_precipitation <dbl>,
## # correlation_cloud_cover <dbl>, correlation_wind_dir <dbl>
On observe ici qu’il n’y a aucune corrélations existantes entre les conditions météorologiques et le nombre de vélos à une station.
Ici, l’analyse a été faite sur les trois ans. Les solutions pourrait être de filtrer les données pour une seule station, sur une année seulement voir même les deux en même temps. Finalement, nous nous sommes rendu compte que cette question n’est pas tant pertinente que cela au vu de la nature de nos données, il est compliqué de faire des statistiques dessus. On peut ajouter que les questions précédentes peuvent permettre un début de réponse à celle-ci car nous avons observer que en été les trajets sont plus nombreux et en hiver ils diminuent légèrement. Ce qui pourrait signifier que les conditions météorologiques comme une température élevé, une humidité modéré et une pluviométrie faible sont des conditions optimales pour des trajets à vélo.
Ce projet nous a permis de découvrir un jeu de données très vaste et complet. Ce jeu porté sur les données fournies par le site de Bay Area Bike Share, entreprise de location de vélos libre-service à San Francisco, de 2013 à 2015. Nous avions décidé, dans notre plan d’analyse, de diviser nos questions en deux parties. Ainsi, nous allons faire une conclusion pour chacune de ces parties :
Quels sont les facteurs qui ont un impact sur l’utilisation des vélos ?
Grâce à l’exploration de notre jeu de données, nous avons pu voir que les types d’abonnement (customer/subscriber) et la météo sont des facteurs impactant au regard de l’utilisation des vélos. A contrario, l’étude du dénivelé de SF et du dimensionnement des stations ne sont pas vraiment ne sont pas des facteurs qui influencent l’utilisation des vélos.
Quelles sont les tendances d’utilisation des vélos ?
Pour cette partie, nous avons pu observer les temps moyens des trajets pour des conditions spécifiques définies : la météo, les saisons et les heures de la journée. Nous avons également pu étudier le comportement des utilisateurs au niveau des stations pour comprendre la fréquentation. Nous avons également pu voir les trajets les plus fréquentés de la Baie de San Francisco. En bref, répondre à nos questions que nous nous sommes posées ici ne nous a pas toujours menés vers les réponses auxquelles on s’attendait, et ce fut intéressant de voir le contraire. Nous avons vu qu’il y avait des outliers dans certains dataset et qu’il fallait fouiller pour comprendre certaines des informations que l’on affichait.
De façon globale, pas de difficultés notables ont été soulevées dans le groupe. Ce qui était particulièrement contraignant fut le temps de traitement du code de certaines questions, en lien avec la taille de nos jeux de données (status.csv faisant plus de 71 000 000 enregistrements). Nous avons pu naviguer aisément dans notre exploration du jeu de données et nous aurions pu pousser celle-ci plus loin sur certains points en regardant plus en profondeur les données météo fournies.
Grégoire Gaumain
Ce projet a été très enrichissant. Nous avons pu créer des graphiques de tout type, et réfléchir à quel graphique utiliser en fonction de chaque cas était très intéressant. Notre jeu de données était très complet ce qui nous a permis d’analyser beaucoup de choses différentes, et de mieux comprendre le système de location de vélo de la baie de San Francisco, et les facteurs qui influencent son utilisation.
Fantin Schmitt
J’ai trouvé ça passionnant d’utiliser les dataviz comme outil pour essayer d’observer et de comprendre des tendances sur nos données. Même si notre dataset était très grand, j’ai été surpris de voir la quantité d’informations que l’on a pu extraire en ne se focalisant que sur quelques données seulement. Une chose essentielle que je retiens c’est l’importance de contextualiser nos observations avec des sources externes pour valider ou remettre en question nos interprétations.
Clémence Vu
J’ai apprécié le travail de construction et d’extraction d’informations effectué sur les jeux de données, l’idée de faire parler les données pour en tirer des faits concrets, explicables et interprétables. Chaque visualisation nous donne à la fois des réponses aux interrogations posées et déclenchent de nouvelles questions et de nouvelles possibilités. Dans le cadre de notre étude, il aurait été intéressant de considérer l’utilisation du service sur une plus longue durée, ou encore de comparer les trajets aux conditions météorologiques enregistrées au moment de la journée (heure plutôt que moyenne journalière). Enfin il aurait été intéressant d’étudier les trajets effectués par un même abonné (suscriber) si nous avions eu un champ identifiant l’utilisateur, disponible dans notre jeu de données.
Lucie Abi Chaaya
Ce projet a été une super approche pour la dataviz ! Le fait de devoir réfléchir et analyser de A à Z sur un dataset que nous avons choisi a été vraiment intéressant, et voici le point que je retiens en particulier : la remise en question sur les graphiques que l’on crée et la prise recul à prendre vis-à-vis du travail produit. J’aurais aimé approfondir les pistes trouver sur les heatmap de pré-analyse, car je pense qu’il y a encore des choses à fouiller dans ce dataset. De façon global ce projet m’a permis de mieux comprendre les enjeux d’une visualisation de données !
Répartition du travail de l’équipe durant le semestre
| Membre | Questions traitées | Autres travaux effectués |
|---|---|---|
| Grégoire Gaumain | Q1 - 1 diagramme Q7 - 1 diagramme Q8 - 1 map Q10 - 1 map + Shiny App (Météo) |
Une partie de la rédaction du readme Shiny App |
| Fantin Schmitt | Q3 - 4 maps Q4 - 7 Diagrammes Q9 - 2 Diagrammes + Shiny App (Cartes) |
Une partie de la rédaction du readme Au jalon 1, la mise en commun des travaux effectués par chaque membre de l’équipe au sein d’un seul fichier RMD a été effectué Shiny App |
| Lucie Abi Chaaya | Heatmaps pré-analyse Q2 - 4 diagrammes Q11 - 2 types de diagrammes |
La rédaction du readme a été effectuée en grande partie. Mise en commun du rapport final et rédaction de la conclusion |
| Clémence Vu | Q0 - 5 diagrammes Q5 - 5 diagrammes |
Recherche de problématiques Tableau |
Pour le traitement des questions, chaque membre de l’équipe a interprété et analysé ses propres graphiques.
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.
0.1 Comment évolue l’utilisation du service de vélos libre-service entre août 2013 et août 2015?
Avant d’étudier les tendances d’utilisation des vélos et l’influence des conditions météorologiques, il est intéressant d’étudier l’évolution de l’utilisation des vélos sur la période couverte par les données.
On suppose que l’utilisation des vélos a augmentée progressivement à partir de la mise en service du réseau en août 2013. On pourrait observer des variations en fonction des différents mois de l’année à cause des variations météorologiques. Une diminution générale de l’utilisation des vélos au milieu de l’année 2015 pourrait être la cause de la suspension du service à partir de cette période.
Visualisations
Pour étudier l’évolution de l’utilisation du réseau de vélos libre service nous allons utiliser successivement plusieurs line chart afin de visualiser dans un prémier temps l’évolution du nombre de trajets quotidiens, puis l’évolution de la durée moyenne des trajets par jour, sur la période couverte par les données disponibles.
Evolution du nombre de trajets entre août 2013 et août 2015
En visualisant l’évolution du nombre de trajets quotidiens on est confrontés à des variations importantes, qui semblent régulières, et qui nous empêchent d’émettre une hypothèse sur une tendance d’utilisation sur les deux ans. En visualisant l’évolution du nombre de trajets hebdomadaire, réduisant les variations régulières, on met en avant les tendance d’utilisation des vélos sur l’année.
Comme évoqué dans les hypothèses, on note une augmentation du nombre de trajets à partir de la mise en service du réseau en août 2013, ainsi qu’une diminution autour de août 2015. Cette diminution soudaine ne semble pas dûe à un désintérêt des utilisateurs (utilisation constante jusque là), mais plutôt à la désinstallation progressive des stations en vue de l’arrêt du service en août 2015. Au cours de la période d’utilisation du réseau, on remarque des tendances rélatives aux différetes périodes de l’année. Les minimums locaux enregistrés annuellement se positionnent au mois de décembre (début puis fin décembre). A partir du mois de janvier on remarque une augmentation générale du nombre de trajets hebdomadaires.
Evolution de la durée moyenne des trajets entre août 2013 et août 2015
En visualisant l’évlution de la durée moyenne quotidienne des trajets, on est encore une fois confrontés à des variations très importantes, qui semblent régulières et qui nous empêchent d’émettre une hypothèse sur une tendance d’utilisation sur les deux ans. En visualisant l’évolution de la durée moyenne hebdomadaire des trajets, réduisant les variations régulières, on espère mettre en avant les tendance d’utilisation des vélos sur l’année.
En étudiant l’évolution sur deux ans de la durée moyenne hebdomadaire des trajets enregistrés, on ne remarque pas de tendance évidente au premier abord. On note deux pics en août 2013 lors de la mise en service du réseau et en août 2015 lors de sa suspension. On pourrait expliquer ces particularités par des tests effectués (août 2013) ou des trajets enregistrés lors de la suspension du service par les équipes techniques dont la durée étonnante fausse les données des trajets enregistrés (août2015). Au cours de l’année, on remarque des maximums locaux à la fin des mois de décembre
Interprétation des graphiques
On ne remarque pas d’évolution pmarticulière dans l’utilisation du réseau de vélos libre-service de San Francisco. On remarque des irrégularités liées à l’installation (août 2013) et à la désinstallation (août 2015) du réseau. On note des tendances d’utilisation selon les différentes périodes de l’année :
On émet l’hypothèse selon laquelle le nombre et la durée moyenne des trajets dépendent en partie des conditions météorologiques enregistrées : des conditions favorables encouragent l’utilisation des vélos, pour des trajets plus longs. Parallèlement, des conditions ddéfavorables peuvent soit décourager l’utilisation des vélos pour des trajets longs (favoriser des trajets courts) ou rallonger des trajets rapides. Nous aurons l’occasion de vérifier cette hypothèse au cours de notre étude.
Remarques
En souhaitant visualiser l’évolution journalière de l’utilisation du service (nombre/ durée moyenne) nous avons été confrontés à des courbes présentant des variations importantes, qui semblent régulières et qui nous empêchent de conclure sur des tendances d’utilisation.Nous emettons l’hypothèse selon laquelle il existe des variations d’utilisation des vélos importantes selon les jours de la semaine, en terme de quantité de trajets et de durée.